摘要 目前神经网络模型的量化方法主要分为训练后量化(PTQ)和量化感知训练(QAT)。训练后量化只需要一小部分数据即可完成量化过程,但是其量化模型的性能不如量化感知训练。本文提出一种新的量化方法Attention Round,该方法让参数w有机会在量化过程中被映射到所有可能的量化值上,而不仅仅是w附近的两个量化值,且被映射到不同量化值的概率与量化值与w的距离负相关,并以高斯函数衰减。此外,本文以有损编码长度为度量为模型不同层分配位宽来解决混合精度量化问题,有效避免了求解组合优化问题。本文还对不同的模型进行了定量实验,结果证实了所提方法的有效性。对于ResNet18和MobileNetV2,本文提出的训练后量化仅需要1,024个训练数据和10分钟即可完成量化过程,可以达到与量化感知训练相当的量化性能。
![arXiv:2207.03088v1 [cs.LG] 2022 年 7 月 7 日PDF文件第1页](/bimg/6/6689e4dcc0e980086d8b2fa95ef3f5c4be747509.webp)
![arXiv:2207.03088v1 [cs.LG] 2022 年 7 月 7 日PDF文件第2页](/bimg/6/6f07b7b12af9b0aaa49462c1b3186e5c4ac72e05.webp)
![arXiv:2207.03088v1 [cs.LG] 2022 年 7 月 7 日PDF文件第3页](/bimg/b/bc84114984c818966e32625349fb4f5744ec0202.webp)
![arXiv:2207.03088v1 [cs.LG] 2022 年 7 月 7 日PDF文件第4页](/bimg/f/f4fadb3fd7dcbecab032457d14946e21e0bf0743.webp)
![arXiv:2207.03088v1 [cs.LG] 2022 年 7 月 7 日PDF文件第5页](/bimg/2/2c8fcf73f97f0a7128b99654eba6b41962e35f25.webp)
